Was ist Apache ORC?

Definition Was ist Apache ORC?

30.11.2023 Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

Anbieter zum Thema

Apache ORC ist ein ursprünglich für Apache Hive und Hadoop entwickeltes Dateiformat. Es ist selbstbeschreibend, typerkennend und spaltenbasiert. Mithilfe des Dateiformats lassen sich große Datenmengen mit hoher Performance lesen, schreiben, komprimieren und verarbeiten. Typischer Einsatzbereich des Optimized-Row-Columnar-Dateiformats ist das Big-Data-Umfeld. Es verhält sich wesentlich effizienter als Dateiformate wie CSV oder JSON und ist unter Apache License 2.0 frei verfügbar.

ORC im Begriff „Apache ORC“ steht für Optimized Row Columnar. Es handelt sich um ein spaltenbasiertes Dateiformat. Entwickelt wurde es im Jahr 2013 ursprünglich für Apache Hive und Hadoop. Es sollte Apache Hive beschleunigen und für eine effizientere Datenspeicherung mit Apache Hadoop sorgen. Die Entwickler konzentrierten sich darauf, Dateigrößen zu reduzieren und eine Hochgeschwindigkeitsverarbeitung der Daten zu ermöglichen.

Apache ORC verhält sich wesentlich effizienter als Dateiformate wie CSV oder JSON. Auf der Website von Apache ORC (orc.apache.org) wird das Dateiformat als „the smallest, fastest columnar storage for Hadoop workloads“ bezeichnet. Apache ORC ist ein spaltenbasiertes, typerkennendes und selbstbeschreibendes Dateiformat. Das Spaltenformat von ORC erlaubt das Lesen, Dekomprimieren und Verarbeiten der nur gerade für die aktuelle Abfrage benötigten Daten. Eine große Zahl an Datentypen wird unterstützt.

Typischer Einsatzbereich von Apache ORC ist das Big-Data-Umfeld. Neben Apache Hadoop und Apache Hive können zahlreiche weitere Datenverarbeitungs-Frameworks wie Apache Flink oder Apache Spark das Dateiformat nutzen. Apache ORC steht unter der Open-Source-Lizenz Apache License 2.0. Das aktuelle Release 1.9.1 erschien im August 2023 und enthält Java- und C++-Reader und -Writer sowie Tools für die Arbeit mit ORC-Dateien. Apache ORC hat sich etabliert und wird von zahlreichen Unternehmen weltweit verwendet. Zu den Nutzern gehören zum Beispiel Meta und Yahoo. Meta nutzt ORC, um viele Petabyte an Daten im Data Warehouse zu speichern.

Merkmale und Eigenschaften

Der Fokus bei der Entwicklung von Apache ORC lag auf der Hochgeschwindigkeitsverarbeitung großer Datenmengen. Das Dateiformat ist für große Streaming-Abfragen optimiert und findet dank dem spaltenbasierten Format die benötigten Daten schnell. Der Reader muss nur die Daten, die gerade benötigt werden, lesen, dekomprimieren und verarbeiten.

ORC-Dateien sind selbstbeschreibend und unabhängig von externen Metadaten. Sämtliche Typ- und Encoding-Informationen für die in der Datei gespeicherten Objekte und deren Interpretation sind innerhalb der Datei vorhanden. Es wird eine große Zahl an Datentypen unterstützt, darunter auch komplexere Typen wie Structs, Lists, Maps und Unions.

Eine ORC-Datei enthält Gruppen von Zeilendaten (Row Data), die als Stripes bezeichnet werden. Ein Stripe besteht aus Index Data, Row Data und Stripe Footer. Jeder Stripe ist zudem in eine Reihe von Datenblöcken aufgeteilt, in denen sich die Daten für bestimmte Spalten befinden. Im Datei-Footer sind Hilfsinformationen wie eine Liste der Stripes in der Datei, die Zahl der Zeilen pro Stripe und die Typen der Daten jeder Spalte und weitere Informationen abgelegt. Insgesamt stellt eine ORC-Datei drei Ebenen von Indizes zur Verfügung. Neben dem Stripe Level Index, gibt es einen File Level Index und einen Row Level Index. Diese Indices werden vom Reader bei der Abfrage von Daten verwendet.

Ein weiteres Merkmal von Apache ORC ist, dass das Dateiformat das ACID-Prinzip unterstützt und die Atomarität, Konsistenz, Abgrenzung und Dauerhaftigkeit von Transaktionen sicherstellen kann.

Vorteile von Apache ORC

Das spaltenbasierte Dateiformat Apache ORC bietet zahlreiche Vorteile. Es ist wesentlich performanter als zeilenbasierte Formate. Große Datenmengen lassen sich mit Apache ORC schneller lesen und verarbeiten. Der Reader muss nur die Daten lesen, dekomprimieren und verarbeiten, die für die aktuelle Abfrage benötigt werden. Unnötige Daten werden ausgefiltert und belasten den Arbeitsspeicher nicht. Ein weiterer Vorteil ist der gute Support für die Datenkomprimierung. Es lassen sich Algorithmen wie Snappy, zlib oder gzip zur Komprimierung einsetzen. Sie reduzieren den Speicherplatzbedarf. Dadurch entstehen weniger Kosten für das Speichern großer Datenmengen. Weitere Vorteile des Dateiformats Apache ORC sind:

speziell für das Hadoop-Ökosystem und Hadoop-Workloads entwickelt

für Big-Data-Anwendungen geeignet

ermöglicht die effiziente Verarbeitung und Speicherung vieler Petabyte an Daten in Data Warehouses

für verschiedene Arten von Daten einsetzbar

flexible Datenmodulierungsmöglichkeiten

unter Open-Source-Lizenz frei verfügbar

auch Java- und C++-Reader und -Writer sowie Tools für die Arbeit mit ORC-Dateien frei verfügbar

Dateiformat wird kontinuierlich weiterentwickelt

weltweit von zahlreichen Unternehmen produktiv eingesetzt

große Zahl unterstützter Datentypen, inklusive komplexer Typen wie Structs, Lists, Maps und Unions

(ID:49788947)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.